مجلهي بررسيهاي آمار رسمي ايران سال 22 شمارهي 1 بهار و تابستان 1390 صص - 63 71 مقایسهی کارایی نمونهگیری متعادلشده و PPS یکسان و بررسی تا ثیر اندازهی نمونه بر آنها تحت شرایط *, فاطمه هرندی زهره فلاح محسنخانی و محمدرضا فرید روحانی پژوهشکدهی آمار دانشگاه شهید بهشتی چکیده: در این مقاله ابتدا کارایی روش نمونهگیری متعادلشده در مقایسه با روش نمونهگیری با احتمال متناسب با اندازه ۱ (PPS) در شرایط یکسان یعنی در حالتی که در هر دو روش تنها از اطلاعات یک متغیر کمکی استفاده شود بررسی میشود. سپس با انجام یک شبیهسازی کارایی مزبور در صورت تغییر کسر ۲ نمونهگیری بررسی م ی شود. یافتهها حاکی از آن است که در شرایط یکسان از نظر اطلاع کمکی مورد استفاده فارغ از اندازهی کسر نمونهگیری کاربرد نمونهگیری متعادلشده به بهرهای ۳ بیش از نمونهگیری PPS منجر میشود و با افزایش کسر نمونهگیری میزان بهرهی حاصل نیز افزایش مییابد. واژگان کلیدی: نمونهگیری متعادلشده نمونهگیری PPS روش مکعبی اندازهی نمونه کارایی بهره. ۱- مقدمه برای دستیابی به راهبرد نمایانگر در نمونهگیری از جامعههای متناهی یعنی راهبردی که از طریق روش نمونهگیری روش براورد یا هر دوی آنها امکان دستیابی به براوردهایی دقیق از ویژگیهای مورد نظر جامعهی مورد مطالعه را فراهم آورد روشهای مختلفی طراحی شده است. ویژگی مشترک همهی این روشها استفاده از اطلاعات کمکی مرتبط با ویژگیهای مورد نظر جامعه در مرحلهی طراحی نمونهگیری مرحلهی براورد یا در هر دو * نویسندهی عهدهدار مکاتبات دریافت: ۱۳۸۹/۶/۳ پذیرش: ۱۳۹۰/۵/۱۵.
فاطمه هرندي زهره فلاح محسنخاني و محمدرضا فريدروحاني 64 مرحله است [۱]. از جمله روشهای مطرح در مرحلهی طراحی نمونهگیری روش نمونهگیری PPS است که در اغلب آمارگیریهای ملی حد اقل در یکی از مرحلههای نمونهگیری مورد استفاده قرار میگیرد. یکی دیگر از روشهای مورد توجه در این زمینه روش ۴ نمونهگیری متعادلشده است که هر چند از دیرباز مطرح بوده است [۴] اما تنها در سالهای اخیر دویل و تیه موفق شدهاند روشی عملی بهنام روش مکعبی را برای انتخاب نمونهی متعادلشدهی احتمالی ارایه دهند [۳] که از قابلیت لازم برای استفاده در آمارگیریهای ملی نیز برخوردار است و هم اکنون در مراکز آماری چند کشور مورد استفاده قرار میگیرد [۸]. هر چند تمام مطالعههایی که تا کنون برای ارزیابی عملکرد نمونهگیری متعادلشده بهروش مکعبی انجام شده است دلالت بر کاراتر بودن این روش در مقایسه با روش نمونهگیری PPS دارد که خود روشی کارا در نمونهگیری احتمالی است [۱ ۳] اما نکتهی مهمی که در این مطالعهها بررسی نشده یکسان نبودن شرایط مقایسه (بهجز روش نمونهگیری) است. در واقع در تمام این مطالعهها از اطلاعات بیش از یک متغیر کمکی برای متعادل کردن نمونهها استفاده شده در صورتی که در نمونهگیری PPS بنا بر ماهیت آن تنها از مقدارهای یک متغیر کمکی بهعنوان معیار اندازه برای گزینش واحدها استفاده شده است. بنا بر این در مورد نتیجههای این مطالعهها این ابهام وجود دارد که کاراتر بودن نتیجههای حاصل از نمونهگیری متعادلشده از PPS ناشی از ماهیت ذاتی این روش نمونهگیری یا استفادهی گستردهتر آن از اطلاعات کمکی موجود دربارهی جامعهی مورد بررسی است. به این ترتیب آنچه که در این مطالعهها مورد بررسی قرار نگرفته است علت کاراتر بودن نمونهگیری متعادلشده از روش مکعبی است و همچنین این موضوع که اندازهی نمونه چه نقشی در کارایی مزبور دارد. در این مقاله سعی شده است به سو الهای بالا پاسخ داده شود. بدین منظور ابتدا در بخش دوم این مقاله به معرفی اجمالی دو روش نمونهگیری متعادلشده و PPS و نحوهی مقایسهی این دو روش در شرایط یکسان پرداخته میشود. در بخش سوم مقاله شبیهسازی طرحریزیشده در پژوهش حاضر برای بررسی کارایی نمونهگیری متعادلشده در مقایسه با PPS در شرایط یکسان و تا ثیر اندازهی نمونه بر این کارایی تشریح میشود. بخش چهارم مقاله به بیان نتایج حاصل از شبیهسازی اختصاص یافته است.
65 مقايسهي كارايي نمونهگيري متعادلشده و PPS در شرايط يكسان و... ۲- مقایسهی نمونهگیری متعادلشده و PPS در شرایط یکسان بهطور کلی در هر نمونهگیری احتمالی از یک جامعهی متناهی با N مجموعهی واحدهایی که نمونه را تشکیل میدهند (کلنمونه) با حرف S و نمونه ) کت s با تعریف زیر درنظر بگیریم: نمونه) را با علامت هر طرح نمونهگیری را میتوان با زوج S 1 ( S, p()) واحد اگر امین واحد یعنی مجموعهی کلنمونههای ممکن و احتمال انتخاب هر یک از این کلنمونهها تعریف کرد به نحوی که: ss p( s ) 1 p( s) 1; ss p( s ) 1; 12,,, N. s اگر واحد.اگر واحد ام در نمونهی احتمال انتخاب تکنمونهی S باشد ام در نمونهی S نباشد (۱) ام است. در هر نمونهگیری احتمالی مقدارهای باید برای تمام واحدهای جامعهی مورد بررسی بزرگتر از صفر باشد. هر چند احتمالهای انتخاب کلنمونهها (()p ها) از طرح انتخابشده برای نمونهگیری تا ثیر میپذیرند و بسته به طرح انتخابشده بعضی از کلنمونههای ممکن میتوانند شانس ()p ها انتخاب صفر داشته باشند (برای مثال در نمونهگیری سیستماتیک بسیاری از صفر هستند زیرا کلنمونههای شامل واحدهای مجاور شانسی برای انتخاب شدن ندارند). -۲-۱ ۵ نمونهگیری متعادلشده به روش مکعبی در نمونهگیری متعادلشده سعی بر این است که به کلنمونههایی که از جنبهی اطلاعات کمکی موجود در زمان طراحی نمونهگیری نمایانگر مناسبی برای جامعهی مورد بررسی نیستند شانسی برای انتخاب داده نشود. بدین منظور تلاش میشود تنها به کل نمونههایی شانس انتخاب داده شود که علاوه بر صدق کردن در شرطهای رابطهی (۱) بتوانند براوردهایی دقیق (برابر با مقدار واقعی معلوم) از متغیرهای کمکی همبسته با متغیرهای
فاطمه هرندي زهره فلاح محسنخاني و محمدرضا فريدروحاني 66 مورد بررسی تولید کنند. طرح نمونهگیری کمکی p()) ( S, متعادلشده بر اساس متغیرهای نامیده x s میشود اگر و فقط اگر S Xˆ X Q t t مجموعهی کلنمونههای ممکن با احتمال غیر صفر باشد. به بیان دیگر نمونهگیری متعادلشده طرحی است که در آن تنها کلنمونههایی شانس انتخاب غیر صفر دارند که معادلهی tˆx را محقق میسازند. t X تعادل در رابطهی بالا x بردار p متغیر کمکی مربوط به واحد ام است که مو لفههای آن مبنای تعادل قرار میگیرند (متغیرهای مبنای تعادل) هورویتز تامپسون مجموع برای انتخاب نمونهی ري وس یک ابرمکعب t براورد x s ˆ X U x مجموع معلوم t X x و x U متعادلشده به روش مکعبی است. [۸] کلنمونههای ممکن بهصورت N بعدی در نظر گرفته میشوند. سپس شکل هندسی معادلههای (tˆx در فضای N بعدی که یک زیرفضای t X تعادل Equations) Balancing آفین Subspace) (Affine با بعد N p است ترسیم میشود. طی مراحل بعدی سعی میشود بهصورت تصادفی یک کلنمونه در زیرفضای مزبور انتخاب شود (کلنمونهی متعادلشده) و اگر هیچ کلنمونهای در این زیرفضا قرار نگیرد تلاش میشود کلنمونهای حتی الامکان نزدیک به آن (کلنمونهی تقریب ا متعادلشده) بهصورت تصادفی انتخاب شود. برای آ گاهی از جزي یات نحوهی انتخاب تصادفی یک کلنمونهی متعادلشده یا تقریبا متعادلشده به [۱] مراجعه کنید. -۲-۲ نمونهگیری PPS در نمونهگیری PPS مقدار π متناسب با بزرگی اندازهی متغیر کمکی واحد ام تعیین میشود. معیار اندازه مقادیر متغیر کمکی موجود در چارچوب آمارگیری است که در صورت انتخاب متغیر مناسب به افزایش کارایی نمونهگیری PPS در مقایسه با نمونهگیری تصادفی ساده منجر خواهد شد. برای مباحث تفصیلیتر در مورد این نوع نمونهگیری به [۵ ۶ و ۹] مراجعه کنید.
67 مقايسهي كارايي نمونهگيري متعادلشده و PPS در شرايط يكسان و... ۲-۳- یکسانسازی شرایط برای این که بتوان مقایسهی درستی بین دو روش نمونهگیری متعادلشده و PPS انجام داد لازم است تا حد امکان تمام شرایط بهجز روش انتخاب نمونه یکسان باشد. بدین منظور باید در هر دو روش نمونهگیری از اطلاعات کمکی یکسانی استفاده شود و علاوه بر آن ها) نیز برای دو روش نمونهگیری یکسان باشد. احتمالهای انتخاب تکنمونهها ) ۳- شبیهسازی از آن جا که در انتخاب نمونهی متعادلشده به روش مکعبی همیشه نمیتوان کلنمونهای دقیقا متعادلشده داشت و کیفیت تعادل در این روش به مقدارهای متغیرهای کمکی مورد استفاده بستگی دارد [۱ ۲ و ۸]. برای بررسی کارایی نمونهگیری متعادلشده به روش مکعبی در مقایسه با PPS در شرایط یکسان یک شبیهسازی با دادههای تصادفی انجام شده است. در این مرحله علاوه بر تعیین کارایی کلی تا ثیر اندازهی نمونه بر این کارایی نیز مورد بررسی قرار گرفته است. بدین منظور ابتدا دادههای مورد نیاز در مطالعه با استفاده از نرمافزار R تولید شده است. در گام اول ۱۰۰۰ دادهی تصادفی از یک توزیع گاما با میانگین و انحراف استاندارد ۲ تولید شد. این اعداد بهعنوان مقدارهای متغیر کمکی مورد استفاده در هر دو شیوهی نمونهگیری در نظر گرفته شدند. در گام دوم چندجملهایهای درجهی از متغیر m کمکی مزبور با ضریبهای تصادفی دارای توزیع یکنواخت و جملهی خطای تصادفی نرمال استاندارد تولید شدند. برای درجهی چندجملهایها ) m ) مقدارهای ۴ ۳ ۲ ۱ ۵ و ۱۰ در نظر گرفته شدند. هر یک از این چندجملهایها بهعنوان مقدارهای یکی از متغیرهای مورد نظر در آمارگیری ( y ) لحاظ شدند. به این ترتیب دادههای جامعهی آماری مورد بررسی بهصورت ماتریسی با ابعاد (۷ ۱۰۰۰) به دست آمد.( x,y,y,y,y,y,y ) 1 2 3 4 5 6 پس از ساخت ماتریس دادهها ابتدا احتمال انتخاب تکنمونهها تعیین میشود. برای ) بهصورت زیر تعیین و برای هر دو روش مثال احتمال انتخاب تکنمونهی ام ) نمونهگیری مورد استفاده قرار میگیرد.
فاطمه هرندي زهره فلاح محسنخاني و محمدرضا فريدروحاني 68 در رابطهی بالا nm M U M مقدار متغیر کمکی برای واحد U M ام متغیر کمکی در جامعهی مورد بررسی و n تعداد نمونه است. نمونهی جمع کل مقادیر بر اساس هر یک از دو روش نمونهگیری تعداد ۱۰۰۰۰ بار از جامعهی مذکور n تایی انتخاب و بر اساس آن برای هر متغیر مقدارهای تجربی متوسط مقدار مورد براورد (MEAN) و میانگین توان دوم خطا (MSE) محاسبه شد. برای انتخاب نمونهی متعادلشده به روش مکعبی از برنامهی نوشتهشده توسط تیه و ماتی [۷] با عنوان Sample Cube که در R وجود دارد استفاده شد. براوردها در همهی حالتها بهروش هورویتز- تامپسون محاسبه شدند. برای تعیین تا ثیر اندازهی نمونه محاسبات بالا برای کسره یا نمونهگیری مختلف شامل ۰/۱۵ ۰/۱ ۰/۰۱ و ۰/۲ جداگانه انجام شد. برای این که بتوان عملکرد روشها را مقایسه کرد برای متغیرهای پاسخ مختلف شاخص براورد میانگین توان دوم خطای نسبی با تعریف زیر برای هر دو روش نمونهگیری و برای کسرهای نمونهگیری مذکور محاسبه شد. MSE RMSE MEAN از متوسط مقدارهای شاخص مذکور روی شش متغیر مورد بررسی بهعنوان شاخص کلی ارزیابی روش استفاده شد. بر اساس شاخص کلی ارزیابی روش نمونهگیری بهرهی حاصل از نمونهگیری متعادلشده به روش مکعبی بهصورت زیر محاسبه شد: EF ( CUBE) 1 RMSE ( CUBE) RMSE ( PPS) ۴- نتیجهگیری یافتههای حاصل از شبیهسازی نشان میدهد که حتی در شرایط یکسان از نظر اطلاعات کمکی مورد استفاده نیز بهرهی حاصل از نمونهگیری متعادلشده بیش از نمونهگیری PPS
69 مقايسهي كارايي نمونهگيري متعادلشده و PPS در شرايط يكسان و... است. بنا بر این کاراتر بودن نمونهگیری متعادلشده نسبت به PPS ماهیت ذاتی این روش نمونهگیری است که ناشی از صفر یا کم کردن احتمال انتخاب کلنمونههای نامناسب است. میزان افزایش کارایی با افزایش کسر نمونهگیری بیشتر میشود. شکل ۱ بهرهی حاصل از نمونهگیری متعادلشده [EF(CUBE)] را به ازای مقدارهای مختلف کسر نمونهگیری بهصورت درصد نشان میدهد. کسر نمونهگیری شکل ۱- بهرهی نمونهگیری متعادلشده نسبت به نمونهگیری PPS برای مقدارهای مختلف کسر نمونهگیری توضیحات 1. Probability Proportional to size Sampling 2. Sampling Fraction 3. Gain 4. Balanced Sampling 5. CUBE Method
فاطمه هرندي زهره فلاح محسنخاني و محمدرضا فريدروحاني 70 مرجعها هرندی فاطمه مهران فرهاد فرید روحانی محمدرضا فلاح محسنخانی زهره (۱۳۸۶). گزارش طرح پژوهشی «نمونهگیری متعادلشده و امکانسنجی استفاده از آن در آمارگیریهای ملی». پژوهشکدهی آمار تهران. هرندی فاطمه مهران فرهاد (۱۳۸۷). نمونهی تصادفی متعادلشده و نحوهی انتخاب آن. گزیدهی مطالب آماری سال ۱۹ شمارهی ۲ پاییز و زمستان ۱۳۸۷ صص ۱۸۶-.۱۷۱ [۱] [۲] [3] Deville, J.C.; Tille, Y. (2004). Efficient balanced sampling: The cube method. Biometria, 91, 893-912. [4] Neyman, J. (1934). On the Two Different Aspects of the Representative Method: The Method of Stratified Sampling and the Method of Purposive Selection. Journal of the Royal Statistical Society. 97, 558-606. [5] Sarndal, C.E.; Swensson, B. and Wretman, J. (1992). Model Assisted Survey Sampling. Springer, New Yor. [6] Thompson, S.K. (2002). Sampling, 2nd ed. Wiley, New Yor. [7] Tille, Y.; Matei, A. (2005). The R Pacage Sampling. The Comprehensive R Archive Networ, http: //cran. R- project. org/, Manual of the Contributed Pacages. [8] Tille, Y. (2006). Sampling Algorithms. Springer, New Yor. [9] Verma, V. (2002). Sampling Methods. Training Handboo, Revised, SIAP, Toyo.
71 مقايسهي كارايي نمونهگيري متعادلشده و PPS در شرايط يكسان و... فاطمه هرندی فوق لیسانس آمار تهران خیابان سید جمالالدین اسدآبادی خیابان ۲۵ شمارهی ۵ پژوهشکدهی آمار. رایانشانی: harandi@srtc.ac.ir زهره فلاح محسنخانی فوق لیسانس آمار تهران خیابان سید جمالالدین اسدآبادی خیابان ۲۵ شمارهی ۵ پژوهشکدهی آمار. رایانشانی: zohrehf@srtc.ac.ir محمدرضا فریدروحانی دکتری آمار تهران اوین دانشگاه شهید بهشتی دانشکدهی علوم ریاضی گروه آمار. رایانشانی: m-faridrohani@sbu.ac.ir